The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
无限维功能空间之间的学习映射已在机器学习的许多学科中取得了经验成功,包括生成建模,功能数据分析,因果推理和多方面的增强学习。在本文中,我们研究了在两个无限维sobolev繁殖内核希尔伯特空间之间学习希尔伯特 - 施密特操作员的统计限制。我们根据Sobolev Hilbert-Schmidt规范建立了信息理论的下限,并表明一种正规化学习了偏见轮廓以下的光谱成分,并且忽略了差异高于方差轮廓的频谱成分可以达到最佳学习率。同时,偏置和方差轮廓之间的光谱成分为我们设计计算可行的机器学习算法的灵活性。基于此观察结果,我们开发了一种多级内核操作员学习算法,该算法在无限维函数空间之间学习线性运算符时是最佳的。
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
光学相干断层扫描(OCT)是一种非侵入性技术,可在微米分辨率中捕获视网膜的横截面区域。它已被广泛用作辅助成像参考,以检测与眼睛有关的病理学并预测疾病特征的纵向进展。视网膜层分割是至关重要的特征提取技术之一,其中视网膜层厚度的变化和由于液体的存在而引起的视网膜层变形高度相关,与多种流行性眼部疾病(如糖尿病性视网膜病)和年龄相关的黄斑疾病高度相关。变性(AMD)。但是,这些图像是从具有不同强度分布或换句话说的不同设备中获取的,属于不同的成像域。本文提出了一种分割引导的域适应方法,以将来自多个设备的图像调整为单个图像域,其中可用的最先进的预训练模型可用。它避免了即将推出的新数据集的手动标签的时间消耗以及现有网络的重新培训。网络的语义一致性和全球特征一致性将最大程度地减少许多研究人员报告的幻觉效果,这些效应对周期矛盾的生成对抗网络(Cyclegan)体系结构。
translated by 谷歌翻译
网络体系结构设计的持续进步导致了各种具有挑战性的计算机视觉任务的深入学习取得的显着成就。同时,神经体系结构搜索(NAS)的开发提供了有前途的方法来自动化网络体系结构的设计,从而获得较低的预测错误。最近,深入学习的新兴应用程序方案提高了考虑多个设计标准的网络体系结构的更高需求:参数/浮点操作的数量以及推理延迟等。从优化的角度来看,涉及多个设计标准的NAS任务是本质上多目标优化问题。因此,采用进化的多目标优化(EMO)算法来解决它们是合理的。尽管如此,仍然存在一个明显的差距,将相关研究沿着这一途径限制:一方面,从优化的角度出发,缺乏NAS任务的一般问题。另一方面,在NAS任务上对EMO算法进行基准评估存在挑战。弥合差距:(i)我们将NAS任务制定为一般的多目标优化问题,并从优化的角度分析复杂特征; (ii)我们提出了一条端到端管道,称为$ \ texttt {evoxbench} $,以生成Emo算法的基准测试问题,以有效运行 - 无需GPU或Pytorch/tensorflow; (iii)我们实例化了两个测试套件,全面涵盖了两个数据集,七个搜索空间和三个硬件设备,最多涉及八个目标。基于上述内容,我们使用六种代表性的EMO算法验证了提出的测试套件,并提供了一些经验分析。 $ \ texttt {evoxBench} $的代码可从$ \ href {https://github.com/emi-group/evoxbench} {\ rm {there}} $。
translated by 谷歌翻译
蒙面图像建模(MIM)在各种视觉任务上取得了令人鼓舞的结果。但是,学到的表示形式的有限可区分性表现出来,使一个更强大的视力学习者还有很多值得一试。为了实现这一目标,我们提出了对比度蒙面的自动编码器(CMAE),这是一种新的自我监督的预训练方法,用于学习更全面和有能力的视觉表示。通过详细统一的对比度学习(CL)和掩盖图像模型(MIM),CMAE利用了它们各自的优势,并以强大的实例可辨别性和局部的可感知来学习表示形式。具体而言,CMAE由两个分支组成,其中在线分支是不对称的编码器编码器,而目标分支是动量更新的编码器。在培训期间,在线编码器从蒙面图像的潜在表示中重建了原始图像,以学习整体特征。馈送完整图像的目标编码器通过其在线学习通过对比度学习增强了功能可区分性。为了使CL与MIM兼容,CMAE引入了两个新组件,即用于生成合理的正视图和特征解码器的像素移位,以补充对比度对的特征。多亏了这些新颖的设计,CMAE可以有效地提高了MIM对应物的表示质量和转移性能。 CMAE在图像分类,语义分割和对象检测的高度竞争基准上实现了最先进的性能。值得注意的是,CMAE-BASE在Imagenet上获得了$ 85.3 \%$ $ TOP-1的准确性和$ 52.5 \%$ MIOU的ADE20K,分别超过了$ 0.7 \%\%$ $和$ 1.8 \%$ $。代码将公开可用。
translated by 谷歌翻译
视频框架插值〜(VFI)算法近年来由于数据驱动算法及其实现的前所未有的进展,近年来有了显着改善。最近的研究引入了高级运动估计或新颖的扭曲方法,以解决具有挑战性的VFI方案。但是,没有发表的VFI作品认为插值误差(IE)的空间不均匀特征。这项工作引入了这样的解决方案。通过密切检查光流与IE之间的相关性,本文提出了新的错误预测指标,该指标将中间框架分为与不同IE水平相对应的不同区域。它基于IE驱动的分割,并通过使用新颖的错误控制损耗函数,引入了一组空间自适应插值单元的合奏,该单元逐步处理并集成了分段区域。这种空间合奏会产生有效且具有诱人的VFI解决方案。对流行视频插值基准测试的广泛实验表明,所提出的解决方案在当前兴趣的应用中优于当前最新(SOTA)。
translated by 谷歌翻译
分类激活图(CAM),利用分类结构来生成像素定位图,是弱监督物体定位(WSOL)的关键机制。但是,CAM直接使用对图像级特征训练的分类器来定位对象,从而更喜欢辨别全局歧视性因素,而不是区域对象提示。因此,在将像素级特征馈入此分类器时,只有判别位置才能激活。为了解决此问题,本文详细阐述了一种称为Bagcams的插件机制,以更好地投射训练有素的本地化任务分类器,而无需完善或重新训练基线结构。我们的手袋采用了拟议的区域定位器(RLG)策略来定义一组区域本地化,然后从训练有素的分类器中得出。这些区域本地化可以被视为基础学习者,只能辨别出针对本地化任务的区域对象因素,而我们的袋子可以有效地加权其结果以形成最终的本地化图。实验表明,采用我们提出的口袋可以在很大程度上提高基线WSOL方法的性能,并在三个WSOL基准上获得最先进的性能。代码可在https://github.com/zh460045050/bagcams上发布。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像细分和其他方面。但是,现有的医学图像分割模型的性能受到获得足够数量的高质量数据的挑战的限制。为了克服限制,我们提出了一个新的视觉医学图像分割模型LVIT(语言符合视觉变压器)。在我们的模型中,引入了医学文本注释,以弥补图像数据的质量缺陷。此外,文本信息可以在一定程度上指导伪标签的产生,并进一步保证半监督学习中伪标签的质量。我们还提出了指数伪标签迭代机制(EPI),以帮助扩展LVIT和像素级注意模块(PLAM)的半监督版本,以保留图像的局部特征。在我们的模型中,LV(语言视觉)损失旨在直接使用文本信息监督未标记图像的培训。为了验证LVIT的性能,我们构建了包含病理图像,X射线等的多模式医学分割数据集(图像 +文本)。实验结果表明,我们提出的LVIT在完全和半监督条件下具有更好的分割性能。代码和数据集可在https://github.com/huanglizi/lvit上找到。
translated by 谷歌翻译
我们介绍了一个大规模实验,该实验对编码器进行了预处理,其参数计数范围从700m到9.3b不等,随后蒸馏到较小的型号中,范围为17m-170亿参数,其应用到自然语言理解(NLU)组件(NLU)组件(虚拟助手系统。尽管我们使用70%的口语数据训练,但在对书面形式的跨语性自然语言推论(XNLI)语料库进行评估时,我们的教师模型与XLM-R和MT5相当。我们使用系统中的内域数据对教师模型进行了第二阶段的训练,以提高了3.86%的相对分类,而相对7.01%的插槽填充。我们发现,即使是从我们的2阶段教师模型中提取的170亿参数模型,与仅接受公共数据的2.3B参数老师相比,与2.3B参数老师相比,意图分类更好2.88%,并且7.69%的插槽填充错误率更好(第1阶段),强调了。内域数据对训练的重要性。当使用标记的NLU数据进行离线评估时,我们的17m参数阶段2蒸馏模型的表现分别优于XLM-R碱基(85m Params)和Distillbert(42m Params),分别优于4.23%至6.14%。最后,我们介绍了一个完整的虚拟助手实验平台的结果,在该平台中,我们发现使用经过预训练和蒸馏管道训练的模型超过了从8500万参数教师蒸馏的模型,在自动测量全系统用户不满的自动测量中,从8500万参数教师蒸馏出3.74%-4.91%。
translated by 谷歌翻译